我们考虑多臂绷带(MAB)中最好的臂识别(Bai)问题的变体,其中有两组臂(源头和目标),目的是确定最佳目标臂,同时仅拉动源臂。在本文中,我们研究了设置的时候,尽管是未知的手段,但源和目标MAB实例之间存在已知的附加关系。我们展示了我们的框架如何涵盖一系列以前研究的纯粹探索问题,并且还捕获了新的问题。我们提出并理论上分析了LUCB风格的算法,以识别具有高概率的$ \ epsilon $ -optimal目标手臂。我们的理论分析强调了在典型的BAI设置中不会出现的这种转移学习问题的方面,但恢复了单个域Bai的Lucb算法作为特殊情况。
translated by 谷歌翻译